<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta http-equiv="X-UA-Compatible" content="ie=edge">
    <title>学习爬虫的坑</title>
</head>
<body>

    <h1>学习爬虫的时候遇到的问题</h1>
<p>昨天学习了douban 爬虫实例，现在想在熟系一下，省的忘记了，，目标：爬取网易云音乐的排行榜和带有列表的内容</p>>
<p>坑一：新建scrapy  startproject music  报错 : 无法将“scray”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
<p> 解决办法：py -m scrapy startproject music     </p>
</p>
<p>

<p>坑二：进行目标爬虫的时候要循环 总的目录一定要到li 标签下面 ，然后  for i_item i  music_list</p>

<code>

def parse(self, response):
        music_item = MusicItem()
        music_list = response.xpath("//div[@class='r']//div[@class='list']/ul/li") #### 到li 下面 li 下面是每一行，的id name singer  ...
        for i_item in music_list:
            music_item['music_id']=i_item.xpath(".//span[@class='n']/text()").extract_first()
            music_item['music_name']=i_item.xpath(".//a[@class='title']/text()").extract_first()
            music_item['music_singer']=i_item.xpath(".//span[@class='s']/a/text()").extract_first()
            music_item['music_time']=i_item.xpath(".//span[@class='t']/text()").extract_first()
            yield music_item




</code>

<p> 进行导入pymongo 的时候本地ip 127.0.0.1 ，配置文件是在管道文件里面   </p>



-----------------------------------------------------------------------------------------------
<h1>查看或者删除pymongo 信息</h1>

cmd  -->进入  cd   mongo 目录 bin 目录     进行mongo 操作
<h1>字符串拼接</h1>


 wzry_item['hero_img']='//game.gtimg.cn/images/yxzj/img201606/heroimg/' + str(data['ename']) + '/'+str(data['ename'])+'.jpg'

 要加str,这样就不会出现字符串和数字不能，拼接的报错了
</body>
</html>